深层生成模型的最新进展为音乐制作提供了新的机会,但也带来了挑战,例如高计算需求和有限的音频质量。此外,当前系统通常仅依赖文本输入,通常专注于制作完整的音乐作品,这与音乐制作中现有的工作流程不相容。为了解决这些问题,我们介绍了Diff-A-Riff,这是一种潜在的扩散模型,该模型旨在生成适合任何音乐背景的高质量乐器伴奏。这种模型通过音频参考,文本提示或两者兼而有之,并产生48kHz伪stereo音频,同时大大减少了推理时间和内存使用情况。我们通过客观指标和主观听力测试来展示该模型的功能,并在随附的网站上提供了广泛的检查。1
主要关键词